JP Language Model Evaluation Harness - evergreens

JP Language Model Evaluation Harness

JGLUE + QA、要約、照応解析、数学のタスクなど

様々な日本語タスクに対するモデルの few-shot 評価をまとめている。

url

https://github.com/Stability-AI/lm-evaluation-harness/tree/jp-stable

タスクの詳細

https://github.com/Stability-AI/lm-evaluation-harness/blob/jp-stable/docs/jptasks.md

JGLUE: JSQuAD、JCommonsenseQA、JNLI、MARK-ja、JCoLA

JaQuAD

日本語質問応答データセット

JBLiMP

日本語の言語モデルを対象とした構文評価のためのデータセット

Wikilingua (ダウンロードできず...)

Wikihowの記事から作成された文書を使った要約タスク

元のデータセットは多言語であるが、現在は日本語版のみが追加されている。

XWinograd

Winograd Schemaの文のペアの集合である。

例えば

ボブはトムに尋ねた。トムはお金をいくらか貸してくれるかと。

ボブはトムに尋ねた。ボブはお金をいくらか貸してくれるかと。

この場合、最初の文章が正解

JAQKET v1/v2

Wikipediaの記事タイトルを解答とする日本のオープンドメインQAデータセット